Reinforcement Learning

- Der Comnputer simuliert die Umgebung. In dieser passiert etwas.
 - Der Agent probiert durch viele Episoden, ob etwas funktioniert.
 - Der Interpreter gibt dem Agenten ein Reward, was den Agenten fördert, positive Schritte zu wählen.
 
Ziel: maximieren der Rewards